#비디오 생성

FLUX 3 x mimic: 차세대 비디오-행동 모델의 등장

Black Forest Labs의 새로운 멀티모달 파운데이션 모델인 FLUX 3가 로봇 제어 및 영상 생성을 하나로 통합하는 '비디오-행동 모델'로 진화했습니다. 이 모델은 영상 생성 과정에서 습득한 물리적 세계의 이해를 바탕으로 로봇의 행동(Action)을 예측하며, mimic 로보틱스와의 협업을 통해 아우디(Audi) 실무 환경에 배포되었습니다. 단일 모델로 영상과 로봇 제어를 모두 처리함으로써 피지컬 AI(Physical AI)가 자연스럽게 확장되는 중요한 기술적 이정표입니다.

멀티모달 로보틱스 파운데이션 모델

Hacker News • 12일 전

IMP 7

100달러로 AI 뮤직비디오 제작: 클로드 vs GPT 모델 비교

오가니제이션에서 자율형 AI 에이전트가 예산 내에서 뮤직비디오를 직접 제작하는 실험을 진행했습니다. 뮤직비디오 생성, ffmpeg 편집, 최종 컷 조립까지 모든 과정을 모델이 자율적으로 수행했습니다. Claude Fable 5와 GPT-5.6 Sol 모델의 작업 방식, 비용 효율성, 도구 활용 방식의 차이를 비교한 실무자 관점의 중요한 벤치마크 결과입니다.

AI 에이전트 뮤직비디오 생성 비디오 생성

The Decoder • 28일 전

IMP 8

구글, 초고속 이미지 AI '나노 바나나 2 라이트' 및 비디오 생성 API 공개

구글이 1K 해상도 이미지를 4초 만에 생성하는 '나노 바나나 2 라이트'와 텍스트 명령어로 최대 10초 분량의 비디오를 생성 및 편집할 수 있는 '제미나이 오엠니 플래시' API를 출시했습니다. 개발자들은 비용 효율이 뛰어난 이 두 모델을 연속으로 연결(chaining)하여, 먼저 이미지를 빠르게 생성한 뒤 이를 비디오로 자연스럽게 애니메이션화하는 워크플로우를 구축할 수 있습니다.

구글 이미지 생성 비디오 생성

TechCrunch AI • 35일 전

IMP 7

피카 잡스, AI 면접관 기반 영상 채용 플랫폼 구축 위해 400만 달러 유치

스톡홀름 스타트업 Fika Jobs는 AI 에이전트가 직접 지원자를 면접하고 이를 짧은 영상 프로필로 제작해 주는 '영상 우선(Video-first)' 채용 플랫폼을 구축하고 있습니다. 이는 단순 이력서 중심의 평가가 가진 한계를 극복하고, 지원자의 소통 능력과 잠재력을 조기에 파악하려는 혁신적 시도입니다. 다만 시각적 정보로 인한 편향 및 차별의 위험이 존재해, 기업의 채용 프로세스 혁신과 윤리적 과제 사이의 균형이 중요해졌습니다.

AI 면접 HR 테크 채용 플랫폼

The Decoder • 44일 전

IMP 8

마이크로소프트 '미라지', 잊지 않는 공간 기억력으로 비디오 생성 혁신

마이크로소프트와 여러 대학의 연구진이 발표한 새로운 비디오 세계 모델 '미라지(Mirage)'는 내부 잠재 공간(latent space)에 공간 기억을 저장하여 카메라가 길게 이동해도 장면의 구조가 일관되게 유지되도록 합니다. 기존 복잡한 3D 포인트 클라우드 방식을 건너뛰어 경쟁 모델 대비 최대 10.5배 빠른 속도와 55배 적은 메모리 사용량이라는 압도적인 효율성을 달성했습니다.

마이크로소프트 비디오 생성 공간 메모리

The Decoder • 55일 전

IMP 7

xAI, 720p 이미지-비디오 변환 지원 '그록 이미지닌 1.5' 공개

일론 머스크의 AI 기업 xAI가 정지된 이미지 하나를 최대 720p 해상도의 짧은 동영상으로 변환해 주는 새로운 모델, '그록 이미지닌 비디오 1.5'를 프리뷰 버전으로 공개했습니다. 사용자는 텍스트 프롬프트를 통해 카메라 움직임과 분위기를 세밀하게 묘사할 수 있으며, 원본 이미지의 디테일과 조명을 유지한 채 장면이 자연스럽게 애니메이션화되는 것이 특징입니다. 이번 업데이트로 xAI는 Seedance, 구글 Veo 등 기존 비디오 AI 제공업체들과 직접적인 경쟁에 돌입하게 되었습니다.

xAI 이미지-비디오 변환 그록(Grok)

Hacker News • 61일 전

IMP 7

칸에서 '초청 상영'한 50만 달러 AI 영화의 진실

미국 AI 스타트업 힉스필드(Higgsfield)가 50만 달러를 들여 제작한 AI 장편 영화가 마치 공식 칸 영화제에서 초청 상영된 것처럼 마케팅하여 논란이 일었다. 실제 이 영화는 칸 영화제와는 별개의 상업 시장인 '영화시장(Marché du Film)'에서 유료로 상영된 것으로 확인되었으며, 이 사건은 과장된 AI 호프(Hype)가 어떻게 만들어지고 확산되는지를 보여주는 사례로 AI 업계의 윤리적 마케팅과 신뢰성에 대한 경각심을 일으키고 있다.

AI 영화 마케팅 논란 칸 영화제

r/singularity • 64일 전

IMP 9

새로운 제미나이 옴니, 경쟁작들을 압도하다

구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.

구글 딥마인드 제미나이 옴니 비디오 생성

r/OpenAI • 66일 전

IMP 6

다중 캐릭터 AI 모션캡처 실험 영상 'Talk'

사라 실킨(Sara Silkin)이 뛰어난 안무자 '지바로(Jibaro)'와 협업하여 다중 캐릭터 기반의 AI 모션캡처 실험 영상 'Talk'를 제작했습니다. AI 기술을 활용해 복잡한 캐릭터의 움직임을 자연스럽게 구현해 낸 것이 이번 프로젝트의 핵심입니다. 제작자는 댓글창을 통해 해당 영상을 완성할 수 있었던 구체적인 제작 과정과 기술적 디테일을 공유할 예정입니다.

AI 모션캡처 영상 제작 안무

Wired AI • 68일 전

IMP 7

구글 제미나이로 복제한 내 AI 아바타, 소름 돋도록 똑같다

구글 제미나이(Gemini) 앱의 신규 '아바타(Avatar)' 기능을 통해 사용자의 외모와 목소리를 닮은 AI 딥페이크 영상을 생성해 보았습니다. 단 5분 만에 얼굴 스캔을 통해 디지털 복제인간을 만들어냈으며, 실제와 소름 돋도록 유사한 퀄리티에 동시에 놀라움과 거부감을 느꼈습니다. 이 기능은 오픈AI 소라(Sora)와 유사하지만 본인의 아바타로만 영상을 제작할 수 있다는 강력한 안전장치를 두고 있다는 점이 특징입니다.

제미나이 구글 AI 아바타

MarkTechPost • 69일 전

IMP 9

바이트댄스, 이미지와 영상의 이해·생성·편집 통합 멀티모달 AI 'Lance' 공개

바이트댄스가 이미지와 영상의 이해, 생성, 편집 기능을 하나의 모델에서 모두 처리할 수 있는 통합 모델 'Lance'를 발표했습니다. 이 모델은 이해(Understanding)와 생성(Generation) 작업을 각각 분리된 전문가 네트워크로 처리하는 듀얼 스트림 혼합 전문가(MoE) 아키텍처를 채택하여 작업 간 간섭 없이 높은 성능을 발휘합니다. 단일 모델로 텍스트, 이미지, 영상이라는 세 가지 모달리티를 자연스럽게 아우르며 시각 AI 분야의 중요한 이정표를 제시합니다.

멀티모달 비디오 생성 이미지 생성

Hacker News • 69일 전

IMP 8

바이트댄스, 이미지·영상 생성·이해 통합 멀티모달 모델 Lance 공개

바이트댄스가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 모두 지원하는 30억(3B) 파라미터 규모의 통합 멀티모달 모델 'Lance'를 공개했습니다. 128대의 A100 GPU 환경에서 트랜스포머 백본을 완전히 처음부터 학습시켰음에도 불구하고, 기존 벤치마크에서 매우 경쟁력 있는 높은 성능을 입증했다는 점이 가장 큰 의의입니다. 이는 하나의 모델로 시각 데이터의 인식과 생성을 동시에 해결하는 최근 멀티모달 AI 기술 트렌드를 잘 보여줍니다.

멀티모달 바이트댄스 이미지 생성

TechCrunch AI • 70일 전

IMP 8

구글 '제미나이 오mni': 이미지·음성·텍스트를 영상으로

구글이 '제미나이 오mni(Gemini Omni)' 모델을 발표하며 텍스트, 이미지, 오디오를 결합해 물리 법칙과 문맥을 이해하는 고품질 비디오를 생성하는 기능을 선보였습니다. 첫 모델인 '오mni 플래시'는 최대 10초의 영상을 만들 수 있으며, 개인화된 디지털 아바타와 딥페이크 방지용 워터마크 기능도 포함되어 있어 소비자 친화적인 멀티모달 AI 시장을 선도하려는 구글의 의도를 보여줍니다.

구글 제미나이 멀티모달

Wired AI • 70일 전

IMP 8

구글, 본인 딥페이크를 쉽게 만드는 신기능 공개

구글이 연례 개발자 회의인 I/O에서 AI 영상 및 이미지 생성 툴인 'Flow'에 자신의 외형을 그대로 구현한 '아바타(Avatar)' 기능을 추가했습니다. 새롭게 탑재된 'Omni Flash' 모델을 통해 사용자는 별도의 촬영 없이도 자신과 똑같이 생긴 AI 딥페이크를 영상 속에 자연스럽게 등장시킬 수 있습니다. 이는 차세대 콘텐츠 크리에이터를 위한 도구를 넘어, 자연어 기반의 에이전트 및 '바이브 코딩(Vibe Coding)'을 대중화하려는 구글의 포괄적인 AI 전략의 일환입니다.

구글 딥페이크 비디오 생성

r/LocalLLaMA • 71일 전

IMP 8

바이트댄스, 30억 파라미터로 만능 통합 모델 'Lance' 오픈소스 공개

바이트댄스가 단 30억(3B) 개의 파라미터만으로 이미지 및 비디오의 이해, 생성, 편집을 모두 지원하는 오픈소스 경량 통합 멀티모달 모델 'Lance'를 공개했습니다. 이 모델은 128개의 A100 GPU 환경에서 처음부터(From scratch) 학습되었음에도 불구하고, 기존 벤치마크에서 강력한 성능을 입증하며 뛰어난 효율성을 보여줍니다. 이는 자원이 제한된 환경에서도 고성능 멀티모달 AI를 구현할 수 있다는 것을 증명하는 의미 있는 연구 성과입니다.

바이트댄스 멀티모달 모델 오픈소스

The Decoder • 106일 전

IMP 8

단 한 장의 사진으로 45분 실시간 립싱크 영상 생성하는 AI

연구진이 단 한 장의 이미지만으로 말하기, 듣기, 노래 부르는 캐릭터의 실시간 영상을 생성하는 AI 모델 'LPM 1.0'을 공개했습니다. 이 모델은 ChatGPT 등 음성 AI와 결합해 45분까지 안정적인 스트리밍이 가능하며, 실사, 애니메이션, 3D 게임 캐릭터 등 다양한 스타일을 추가 학습 없이 지원합니다. 완성도 높은 딥페이크 기술의 등장이지만, 현재는 안전성 문제로 공개 계획 없이 연구 목적으로만 남겨진 점이 특징입니다.

비디오 생성 실시간 AI 딥페이크

The Decoder • 106일 전

IMP 8

구글, 울트라 구독자에 Veo 3.1 라이트 무료 제공

구글이 AI 프리미엄 울트라(Ultra) 구독자를 대상으로 'Veo 3.1 Lite' 하위 우선순위 모델을 추가 크레딧 비용 없이 제공한다고 발표했습니다. 기존 'Veo 3.1 Fast' 대비 절반 이하의 비용과 동일한 속도를 자랑하는 이 옵션은 올 5월 10일부터 정식 적용되어, 구독자들이 크레딧 소모 없이 자유롭게 아이디어를 테스트할 수 있게 해줍니다. 오픈AI 소라(Sora)의 지연 속 공백 속에서 구글이 서방 AI 비디오 시장을 확고히 장악하고 있다는 점을 보여주는 중요한 전략입니다.

구글 비디오 생성 Veo 3.1

The Decoder • 108일 전

IMP 8

연구진, AI '세계 모델' 진짜 조건 규정

국제 공동 연구진이 '세계 모델(World Model)'의 명확한 정의를 제시하고, 단방향성 텍스트-투-비디오(text-to-video) 모델은 이에 포함되지 않는다고 규정했습니다. 실제 환경을 인식하고 상호작용 및 장기 기억이 가능해야 한다는 이 기준에 따라 소라(Sora) 같은 모델들은 제외되었습니다. 연구진은 세계 모델 개발과 평가를 돕기 위해 5가지 핵심 모듈을 통합한 오픈소스 프레임워크 'OpenWorldLib'도 함께 공개했습니다.

세계 모델 비디오 생성 오픈소스

MarkTechPost • 116일 전

IMP 8

넷플릭스, 영상 속 객체 지우는 AI 'VOID' 오픈소스 공개

넷플릭스 AI 연구팀이 영상 내 특정 객체를 지워도 주변 배경과 물리적 현상(그림자, 중력 등)을 자연스럽게 복원하는 AI 모델 'VOID'를 오픈소스로 공개했습니다. 기존 영상 편집의 가장 큰 난제였던 객체 제거 시 발생하는 이질감을 해결하여, 할리우드 VFX(시각효과) 팀이 수주간 수작업으로 진행하던 작업을 혁신할 수 있습니다.

넷플릭스 오픈소스 비디오 생성

TechCrunch AI • 117일 전

IMP 7

구글 비디오 앱, 프롬프트로 아바타 연출 지원

구글이 비디오 편집 앱 '비즈(Vids)'에 텍스트 프롬프트를 통해 아바타의 행동과 외형을 세밀하게 지정하는 기능을 추가했습니다. 또한 Veo 3.1 영상 생성 모델을 도입해 최대 8초짜리 영상을 만들 수 있게 되었으며, 완성된 영상을 유튜브로 직접 내보내거나 크롬 확장 프로그램으로 화면을 녹화하는 기능도 새롭게 제공됩니다.

구글 비디오 생성 AI 아바타

Google AI Blog • 117일 전

IMP 8

구글 비즈(Google Vids), 고품질 영상 무료 생성 기능 추가

구글 비즈(Google Vids)에 Veo 3.1 기반의 고품질 영상 생성 및 크롬 확장 프로그램을 통한 화면 녹화 기능이 모든 구글 계정 사용자에게 무료로 제공됩니다. AI Pro 및 Ultra 구독자는 리리아 3(Lyria 3) 모델을 통한 맞춤형 음악 생성과, 특정 장면 및 객체와 상호작용하는 고도화된 맞춤형 AI 아바타 기능을 추가로 활용할 수 있습니다. 이번 업데이트로 인해 누구나 쉽고 직관적인 프롬프트 입력만으로 전문적인 수준의 동영상 콘텐츠를 제작하고 유튜브로 바로 퍼블리싱할 수 있게 되었습니다.

구글 비즈 비디오 생성 Veo 3.1